Aperçu et paysage de l'évolution architecturale

Nous passons du succès fondamental d'AlexNet à l'ère des réseaux profonds extrêmes réseaux de neurones convolutifs (CNN). Ce changement a exigé des innovations architecturales profondes pour gérer une profondeur extrême tout en maintenant la stabilité de l'apprentissage. Nous analyserons trois architectures emblématiques—VGG, GoogLeNet (Inception), et ResNet—en comprenant comment chacune a résolu des aspects différents du problème d'échelle, posant les bases d'une interprétabilité rigoureuse des modèles ultérieurement dans cette leçon.

1. Simplicité structurelle : VGG

VGG a introduit le paradigme de maximisation de la profondeur en utilisant des tailles de noyaux extrêmement uniformes et petites (exclusivement filtres convolutifs 3x3 empilés). Bien que coûteux en calcul, son uniformité structurelle a prouvé que la profondeur brute, obtenue par une variation architecturale minimale, était un moteur principal des améliorations de performance, renforçant l'importance des champs réceptifs petits.

2. Efficacité computationnelle : GoogLeNet (Inception)

GoogLeNet a contré le coût computationnel élevé de VGG en privilégiant l'efficacité et l'extraction de caractéristiques à plusieurs échelles. L'innovation centrale est le module Inception, qui effectue des convolutions parallèles (1x1, 3x3, 5x5) et des opérations de pooling. Critiquement, il utilise les convolutions 1x1 comme goulots d'étranglement pour réduire considérablement le nombre de paramètres et la complexité computationnelle avant les opérations coûteuses.

Défi ingénierie clé

Residual Learning: ResNet

ResNet solved the degradation problem by introducing the identity mapping (skip connection). This non-sequential shortcut allows the network to learn a residual function $F(x)$ instead of a direct mapping $H(x)$, effectively ensuring that adding more layers can only improve or maintain performance, dramatically improving optimization stability.

Diagram showing a ResNet skip connection architecture

Question 1

Which architecture emphasized structural uniformity using mostly 3x3 filters to maximize depth?

AlexNet

VGG

GoogLeNet

ResNet

Question 2

The 1x1 convolution is primarily used in the Inception Module for what fundamental purpose?

Increasing feature map resolution

Non-linear activation

Dimensionality reduction (bottleneck)

Spatial attention

Critical Challenge: Vanishing Gradients

Engineering Solutions for Optimization

Explain how ResNet’s identity mapping fundamentally addresses the Vanishing Gradient problem beyond techniques like improved weight initialization or Batch Normalization.

Describe the mechanism by which the skip connection stabilizes gradient flow during backpropagation.

Solution:
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.